loading
Richtek

应对 AI 动态突波负载挑战:RTQ1954 80V 热插拔控制器


Mohammad Etemadrezaei | AN092 October 2025

Addressing Dynamic Transient AI Workloads: Introducing the <a href=RTQ1954 80V Hot Swap Controller">

随着现代数据中心的电力需求持续攀升,其运行效率与可扩展性要求推动了模块化系统的发展,例如服务器、扩展卡及辅助电路板均需支持热插拔功能。当模块组件发生故障时,能够在不中断运行的情况下进行更换,有助于减少停机时间与维修成本。本文应用笔记将介绍立锜 RTQ1954 热插拔控制器及其多阶段过电流保护 (OCP) 设计,说明其如何在动态 AI 工作负载下提供可靠保护,同时实现高功率系统的散热优化。。

Example of AI Workload with Wide and Dynamic Transients

图 1. AI 工作负载的动态突波示例



1. 热插拔控制器的应用与挑战

1.1 应用情境

热插拔控制器通常应用于数据中心的模块化系统中,最常见的用途为电源输入口(如图 2 所示)。这类控制器具备三大功能:

1. 协助模块在电源线 (busbar) 带电状态下插拔。

2. 系统故障时提供保护。

3. 提供关键的电源与安全监控信息。

为达成这些功能,热插拔控制器会控制一个或多个串接的外部设备,如 MOSFET(可视功率需求并联使用)。

A Typical Application for a Hot Swap Controller in a Power Distribution Board

图 2. 热插入控制器在电源分配板上的典型应用

1.2 应用挑战

热插拔控制器常见的保护情境之一,是在启动或稳态运作过程中发生过电流事件。若为输出短路且阻抗极低(接近接地),控制器会在数微秒内关闭 MOSFET,以避免过电流损坏系统。针对其他过电流情况,多数热插拔控制器会在 MOSFET 关闭前,会在故障超时时间内 (fault timeout period) 对电流(或功率)进行限制。此类保护方式适用于负载曲线 (load profile) 稳定、无剧烈突波的情况。

现代 AI 应用所使用的 xPU 负载曲线具备宽范围且动态的电流突波,且持续时间变化大,并不像 CPU 负载曲线那样具有明确规范。若仅以单一电流/功率限制值来做保护设定,容易产生误判错误,因此需要:

1. 将电流限制门槛设定在高于预期的最大负载,并且/或

2. 延长故障容忍时间以容纳突波电流。

提高电流限制虽然可让突波通过,但也可能让像 soft short 这类异常状况无法被侦测;而延长故障超时时间则会增加 MOSFET 所承受的热与电应力,有违其安全操作区域 (SOA) 限制。

With Single-Level Overcurrent Protection (I<sub>LIM</sub>), the Hot Swap Controller Faces Challenges in Properly Protecting Systems with AI Load Profiles

图 3. 当只有单一电流限制保护 (ILIM) 时,面对 AI 负载轮廓,热插拔控制器将面临保护上的挑战

1.3 解决方案

立锜 RTQ1954 80V 热插拔控制器透过多阶段过电流保护 (OCP) 机制,有效应对 AI 动态负载保护挑战。多阶段 OCP 架构具备高度弹性,可依据不同负载曲线进行优化设计。本文将说明多阶段 OCP 的优势,并说明其如何应用于保护输出功率达 8.5kW 的系统(如图 4 所示负载曲线)。



2. 多阶段 OCP 保护机制

RTQ1954 提供四个不同阶段的快速且精准的过电流保护,能因应各种过电流负载状况,如下图所示。

Multi-Level OCP Setting for a Dynamic Load Profile with Multiple Steps of Various Durations

图 4. 多阶段 OCP 示意图

Overcurrent Protection ΔVSNS Threshold (Voltage Across Sense Resistor) Fault Timer
OCP1 (Start-Up Only) 2mV Immediate
OCP2 10mV to 55mV (PMBus), 26mV, 37mV to 49mV, and 50mV (hardware) Set by CTIMER
OCP3 VOCP2 + 15mV 0.5ms
CB 50mV, 100mV, 200mV Immediate

启动保护 OCP1: 针对启动时可能出现的过大浪涌电流进行防护。

稳态运作保护 OCP2: 此保护等级应设于稳态负载之上,用于防范 soft short 或持续过载等状况,保护容忍时间可透过 TIMER 脚位的电容设定。

稳态运作保护 OCP3: 允许高于预期的短时间过载脉冲通过,若持续时间超过 tBLANK(预设为 0.5ms),则会启动保护机制。

斷路器保護 CB: 当发生极端过电流事件时(如短路),此保护机制可于微秒(us)内反应,是对严重故障的最终防线。

本应用范例所采用的系统参数如下:

Parameter Value
Input Voltage 50V
Average DC Current 170A
Average DC Power 8.5kW at 50V
OCP1 8A/Immediate
OCP2 200A/1.19ms timer
OCP3 260A/0.5ms timer
CB 400A/Immediate
Number of MOSFETs 6 x PSMN2R3-100SSE

2.1 启动保护 OCP1

在启动过程中,可于 GATE 脚位与 GND 间接上电容,以实现软启动并限制 VOUT 上升斜率与输出电容的浪涌电流。假设输出电容损坏或短路至地,将会导致浪涌电流过大,外部 MOSFET 过度耗损(此时 VDS 接近最大值,因为 VOUT 为 0V)。若为多颗并联 MOSFET 的高功率应用,最坏情况下可能只有一颗 MOSFET 导通全部浪涌电流,原因在于 MOSFET 的 VGS 启动电压存在差异。

Simplified Application Circuit

图 5. 简化应用电路图

Start-Up Sequence (VIN=50V, CGATE=22nF, COUT=2400μF, tSTART=72ms, IINRUSH=1.7A)

图 6. 启动过程波形 (VIN=50V, CGATE=22nF, COUT=2400μF, tSTART=72ms, IINRUSH=1.7A)

为避免启动即短路的情形,RTQ1954 具有快速过电流保护 OCP1,当电流达到 IOCP1 门槛(RSNS 上的压降超过 2mV)时,就会立即关闭外部 MOSFET。此保护机制是即时反应,不需要任何等待时间才进行电流或功率限制。此设计可显着降低启动初期 MOSFET 所承受的压力,尤其在 MOSFET 承受高电压差时。

Start into Short, as the Current Reaches IOCP1 (10A), the <a href=RTQ1954 Shuts Down Immediately">

图 7. 启动即短路,当电流达 IOCP1 (10A) 时,RTQ1954 立即关闭外部 MOSFET

2.2 稳态运作保护 OCP2

启动完成后,热插拔控制器需持续监控电流状况,针对异常过电流提供保护。RTQ1954 会主动侦测 RSNS 上的电压来量测负载电流。当电流达到 IOCP2 门槛 (IOCP2=VOCP2/RSNS) 时,故障计时器将开始以 2.5μA 电流对 CTIMER 充电。若在计时器达到故障超时时间(CTIMER 电压达 3.9V)之前电流回至 IOCP2 以下,RTQ1954 会恢復正常运作,并以 20μA 电流对 CTIMER 放电;若电流无法降至IOCP2 以下,则会关闭 MOSFET,并以 20μA 进行放电。tOCP2 的超时时间可透过电容设定。

image009

OCP2 Protection Mechanism.

图 8. OCP2 过电流保护机制示意图

透过多阶段 OCP 架构,第一层保护不需设在预期最大负载之上,避免系统暴露于无法侦测的 soft short 状况。建议将 IOCP2 设定略高于平均电流 IDC(需考虑 IOCP2 的误差容忍度与输入电压 VIN 的波动),作为针对持续性过电流,如 soft short,或高于预期持续时间 (transient overload) 的瞬态过载防护。

VOCP2 门槛值可透过 PMBus 设定(范围为 10mV 至 55mV,1mV 增额),也可经由硬体方式,使用 CL 与 AUX 脚位进行设定。此设计提供高度弹性,无需更换感测电阻 RSNS,即可调整 IOCP2 设定值。

TIMER Starts Ramping when Current Reaches I<sub>OCP2</sub>=200A. The Current Drops below I<sub>OCP2</sub> before the TIMER Expires (V<sub>TIMER</sub><3.9V). (VIN=50V, R<sub>SNS</sub>=0.25mΩ, V<sub>OCP2</sub>=50mV, C<sub>TIMER</sub>=0.68nF, t<sub>OCP2</sub>=1.19ms)

图 9. 当电流达到 IOCP2=200A 时,计时器开始上升;若电流在计时器超时前可降至 IOCP2 以下 (VTIMER<3.9V),则不会触发故障。(VIN=50V, RSNS=0.25mΩ, VOCP2=50mV, CTIMER=0.68nF, tOCP2=1.19ms)

TIMER Starts Ramping when Current Reaches I<sub>OCP2</sub>=200A. The Current Does Not Drop below I<sub>OCP2</sub> before the TIMER Expires (V<sub>TIMER</sub><3.9V) and Faults. (VIN=50V, R<sub>SNS</sub>=0.25mΩ, V<sub>OCP2</sub>=50mV, C<sub>TIMER</sub>=0.68nF, t<sub>OCP2</sub>=1.19ms)

图 10. 当电流达到 IOCP2=200A 时,计时器开始上升;若电流未在计时器超时前降至 IOCP2 以下 (VTIMER<3.9V),则触发故障保护。 (VIN=50V, RSNS=0.25mΩ, VOCP2=50mV, CTIMER=0.68nF, tOCP2=1.19ms)

2.3 稳态运作保护OCP3

在宽范围动态负载曲线中,电流脉冲可能高达 2 倍 IDC,且持续时间从数微秒(us)至数百微秒不等。热插拔控制器必须允许此类短时间突波通过,同时还能对真实故障状况提供保护。RTQ1954 可提供另一层保护机制 OCP3,其门槛高于 OCP2,可允许持续时间小于 0.5ms(遮蔽时间 blanking time)的高电流短脉冲通过而设计。IOCP3 的触发门槛是以 IOCP2 为基准,再加上偏移设定如下。

image013

若电流脉冲超过 IOCP3 门槛,且持续时间超过 0.5ms 的遮蔽时间,RTQ1954 将关闭外部 MOSFET 以启动保护机制。反之,若脉冲持续时间短于遮蔽时间,RTQ1954 将恢复正常运作,并立即重置遮蔽计时器,确保不规则或重复出现短脉冲可顺利通过而不误触发故障。

The Load Current Pulse above I<sub>OCP3</sub>=260A Lasts Less than the Blanking Time (t<sub>BLANK</sub>=0.5ms), the Pulse will Go Through without Tripping a Fault.

图 11. 当负载电流脉冲超过 IOCP3=260A,但持续时间小于遮蔽时间(tBLANK=0.5ms)时,该脉冲将可通过而不会触发故障保护。

2.4 断路器保护CB

断路器保护是应对过电流事件(如输出短路)时的最终防线,尤其当电流上升速度远快于 IOCP2 或 IOCP3 的触发时间时。当感测电阻 RSNS 上的压降超过所设定的 VCB 门槛(可选择 50mV、100mV 或 200mV)时,RTQ1954 将立即关闭外部 MOSFET。当电流降至 ICB 门槛以下后,RTQ1954 允许 MOSFET 再次导通,而非维持锁定关闭状态,这是为了避免将突如其来的输入电压变化,误判为短路故障并导致系统关闭。假设短路故障仍持续存在,OCP2 或 OCP3 将会再次触发保护机制。请注意,在 CB 事件发生后,为能快速关断 MOSFET 并限制其功耗于安全操作区域 (SOA) 内,TIMER 脚位的充电电流(用于设定 OCP2 计时器)将提升至 25µA,为原设定值的 10 倍。

A screen shot of a computer AI-generated content may be incorrect.

图 12. 在 CB 保护动作结束后,RTQ1954 将允许 MOSFET 再次导通(不进行电流限制);若短路状况仍存在,OCP2 或 OCP3 会启动保护。为快速关闭 MOSFET,TIMER 脚位的电流提升至 25µA。自动重试功能关闭,输入电压变为 VIN=50V。



3. 识别重复性过电流脉冲,提升系统判断准确性

AI 负载曲线的一大特性是具备重复性的过电流脉冲,其占空比甚至可超过 50%。作为系统电源入口的热插拔控制器必须能区分这类重复性突波与持续性的过电流故障,以避免误触发保护机制。RTQ1954 会在电流低于 OCP2/OCP3 门槛时,立即重置故障计时器 (fault timer),有效解决此问题,才能随时准备应对下一次脉冲。

RTQ1954 的 OCP3 为数字计时器,当电流降至 IOCP3 以下时,会立即重置故障计时器;OCP2 则为模拟计时器,由 CTIMER 控制。当电流超过 IOCP2 时,CTIMER 以 2.5μA 的电流充电;当 OCP2 状况结束(不论 VTIMER 是否已达 3.9V),CTIMER 将以 20μA 进行放电。这种 8:1 的放电/充电电流比可确保 VTIMER 在下一次 OCP2 事件发生前,回到初始电压 (0V) ,以防止 VTIMER 因预留电压偏压持续累积,进而误判为故障。

RTQ1954 的 OCP2 设计具备“非累积”条件,容许负载占空比最高达 88%(以超过 IOCP2 的负载脉冲为定义依据),使其能在面对各种宽范围且不可预测的过电流情况时,避免误触发故障保护机制。

Repetitive Load Pulses (ILOAD>I<sub>OCP2</sub>) with Duty Cycle of 87%. The <a href=RTQ1954 VTIMER Does Not Accumulate and Avoids False Fault Tripping up to 88% Load Pulse Duty Cycle.">

图 13. 当负载电流脉冲 (ILOAD > IOCP2) 具有 87% 的占空比时,RTQ1954 的 VTIMER 不会累积电压,进而有效防止误判故障。



4. 有效侦测 Soft Short,强化系统保护

当输出端因为较大的阻抗而短路时,虽然电流未明显上升,某些热插拔控制器可能无法侦测到此类称为 soft short 的短路情形,进而导致系统过热甚至失效。尤其是当系统只具备单一过电流保护机制(不含断路器)时,此问题更为严重,因为该保护门槛通常会设定为平均电流 IDC 的 50% 甚至 100% 以上,虽然是为了增加输入容错值以及避免因动态负载而误触保护机制,但会影响侦测正确性。。

RTQ1954 采用多阶段 OCP 设计,透过 OCP2 与 OCP3 设定不同的电流范围,有效解决此问题。因此,凡是高于 OCP2 门槛的 soft short 电流皆可被侦测,让系统散热设计人员可依 OCP2 电流水准来规划电路板热承受能力,无需以 2 倍 IDC 为设计依据,可降低系统成本并提升可靠性。

image017

Example of a Soft Short and Potential Failure with Other Hot Swap Controllers Having Only One Level of Overcurrent Protection (I<sub>LIM</sub>=300A). MOSFET Case Temperature Reaching 180°C, at 285A after 4 Minutes.

图 14. 仅具备单级过流保护 (ILIM=300A) 的其他热插拔控制器发生软短路及潜在故障的示例。在 285A 电流下持续 4 分钟后,MOSFET 外壳温度达到 180°C。



5. 实现与保护机制独立的散热设计

在高功率应用中,热插拔控制器通常会驱动多颗并联的外部 MOSFET。在稳态条件下,各 MOSFET 会根据电路板布局与其 RDSon 差异分摊电流。传统的热插拔控制器散热设计需配置足够数量的 MOSFET,以确保其接面温度 (TJ) 维持在最大工作范围之内。本应用所使用的 MOSFET 为 PSMN2R3-100SSE,在 25°C 时具有低 RDSon 值(2.28mΩ),其最高接面温度为 175°C。为使 MOSFET 的 TJ(对此类封装而言,TJ 与外壳温度近似)维持在建议的 DC 操作接面温度 TJ,DC 以下(建议值约为 120°C,因应动态暂态时温度变化),所需并联的 MOSFET 数量需依以下公式计算:

image019

由于 MOSFET 的导通电阻 RDSon 与其接面温度密切相关,实际应用中可能需反复计算上述公式数次,以求得 RDSon 与 TJ,DC 的关系值。根据 MOSFET 规格书,当温度从 25°C 上升至 120°C 时,RDSon 将增加约 1.8 倍,这样的变化使计算得到的 TJ,DC 接近设计目标,通常无需再进一步修正。

image020

这套 8.5kW(50V × 170A,直流平均功率)的热插拔控制器系统是透过 6 颗 MOSFET 及 15°C/W 的接面至环境热阻实现(此热阻值高度依赖于电路板散热设计、散热片配置与气流条件)。若系统的热阻高于此案例,则需使用更多颗 MOSFET,或降低环境温度,以满足 TJ,DC 的热设计要求。

热插拔控制器的散热设计为何与保护机制设定有关?

关键在于第一层过电流保护的触发门槛。系统能够持续承受的电流,必须低于此保护门槛。若第一层 OCP 设定为 2 倍 IDC,这是常见于避免 AI 动态负载误判的设定情境,则热设计也需以 2 × IDC 为依据,导致在相同直流功率下需配置更多颗 MOSFET。

然而,在 RTQ1954中,IOCP2 设定略高于 IDC,代表所有高于 IOCP2 的过电流(包括持续性的 soft short)都能被侦测。如此一来,热设计便可依据 IOCP2 进行,因其接近 IDC,可大幅降低所需的 MOSFET 数量,达成更有效率的系统设计。

值得一提的是,多数他厂热插拔控制器具备外部热保护机制,可用于监测像是 MOSFET 等组件的温度。然而,本应用所使用的 MOSFET 具有数十秒等级(甚至更高)的热时间常数,远大于过电流保护机制的毫秒级反应时间。此外,热插拔控制器通常仅能监控单一位置的温度,若系统中使用多颗 MOSFET,则各颗组件间的温度差异可能无法被侦测,增加热失效风险。RTQ1954 让热插拔控制器系统的散热设计可依据实际直流电流进行优化,无需依据较高的过电流保护门槛来设计,在相同平均直流功率下可减少所需的 MOSFET 数量,提升系统效率与成本效益。  



6. 結論

现代 AI 应用的工作负载具有宽范围且高动态的瞬态负载特性,对作为系统入口的热插拔控制器带来极大挑战。热插拔控制器必须能准确分辨短时间电流突波、重复性的过电流脉冲以及持续性的 soft short,且在此过程中不应中断负载供电,更重要的是不能让系统关机。RTQ1954 热插拔控制器透过多阶段过电流保护 (OCP) 机制,有效解决上述问题。此架构不会限制电流,因而不会影响负载行为,且可依动态 AI 工作负载进行弹性调整,同时避免误判故障。随着现代 xPU 系统功率需求持续上升,RTQ1954 系统的散热设计可针对平均直流功率进行优化,可在 DC 电流水平以上的各种过电流情境中提供完整防护,实现兼具效能与可靠性的电源系统设计。

若要获得更多产品的产品信息,请 订阅我们的电子报




相关资源
立锜科技电子报 订阅立锜科技电子报
档案下载 PDF 下载
TOP